智能论文笔记

InferEM: Inferring the Speaker's Intention for Empathetic Dialogue Generation

Guoqing Lv , Xiaoping Wang , Jiang Li , Zhigang Zeng

分类：自然语言处理

2022-12-13

Current approaches to empathetic response generation typically encode the entire dialogue history directly and put the output into a decoder to generate friendly feedback. These methods focus on modelling contextual information but neglect capturing the direct intention of the speaker. We argue that the last utterance in the dialogue empirically conveys the intention of the speaker. Consequently, we propose a novel model named InferEM for empathetic response generation. We separately encode the last utterance and fuse it with the entire dialogue through multi-head attention based intention fusion module to capture the speaker's intention. Besides, we utilize previous utterances to predict the last utterance, which simulates human's psychology to guess what the interlocutor may speak in advance. To balance the optimizing rates of the utterance prediction and response generation, a multi-task learning strategy is designed for InferEM. Experimental results demonstrate the plausibility and validity of InferEM in improving empathetic expression.

translated by 谷歌翻译

Implicit and Efficient Point Cloud Completion for 3D Single Object Tracking

Pan Wang , Liangliang Ren , Shengkai Wu , Jinrong Yang , En Yu , Hangcheng Yu , Xiaoping Li

分类：计算机视觉

2022-09-01

基于点云的3D单一对象跟踪（3DSOT）吸引了越来越多的注意力。已经取得了许多突破，但我们也揭示了两个严重的问题。通过广泛的分析，我们发现当前方法的预测方式是非持bust的，即暴露了预测得分和实际定位精度之间的错位差距。另一个问题是稀疏点返回将损坏SOT任务的功能匹配过程。基于这些见解，我们介绍了两个新型模块，即自适应改进预测（ARP）和目标知识转移（TKT），以解决它们。为此，我们首先设计了强大的管道来提取区分特征，并使用注意机制进行匹配程序。然后，建议通过汇总所有具有宝贵线索的预测候选人来解决未对准问题。最后，由于稀疏和遮挡问题，TKT模块旨在有效克服不完整的点云。我们称我们的整体框架PCET。通过在Kitti和Waymo Open数据集上进行广泛的实验，我们的模型可以实现最新的性能，同时保持较低的计算消耗。

translated by 谷歌翻译

HTML版本

A Semantic Consistency Feature Alignment Object Detection Model Based on Mixed-Class Distribution Metrics

Lijun Gou , Jinrong Yang , Hangcheng Yu , Pan Wang , Xiaoping Li , Chao Deng

分类：计算机视觉 | 人工智能

2022-06-12

在各种计算机视觉任务（例如对象检测，实例分段等）中，无监督的域适应至关重要。他们试图减少域偏差诱导的性能下降，同时还促进模型应用速度。域适应对象检测中的先前作品尝试使图像级和实例级别变化对准以最大程度地减少域差异，但是它们可能会使单级功能与图像级域适应中的混合级功能相结合，因为对象中的每个图像中的每个图像检测任务可能不止一个类和对象。为了通过单级对齐获得单级和混合级对齐方式，我们将功能的混合级视为新班级，并建议使用混合级$ h-divergence $，以供对象检测到实现均匀特征对准并减少负转移。然后，还提出了基于混合级$ h-Divergence $的语义一致性特征对齐模型（SCFAM）。为了改善单层和混合级的语义信息并完成语义分离，SCFAM模型提出了语义预测模型（SPM）和语义桥接组件（SBC）。然后根据SPM结果更改PIX域鉴别器损耗的重量，以减少样品不平衡。广泛使用的数据集上的广泛无监督域的适应实验说明了我们所提出的方法在域偏置设置中的强大对象检测。

translated by 谷歌翻译

MyoPS: A Benchmark of Myocardial Pathology Segmentation Combining Three-Sequence Cardiac Magnetic Resonance Images

Lei Li , Fuping Wu , Sihan Wang , Xinzhe Luo , Carlos Martin-Isla , Shuwei Zhai , Jianpeng Zhang , Yanfei Liu7 , Zhen Zhang , Markus J. Ankenbrand

分类：计算机视觉

2022-01-10

心肌活力的评估对于患有心肌梗塞的患者的诊断和治疗管理是必不可少的，并且心肌病理学的分类是本评估的关键。这项工作定义了医学图像分析的新任务，即进行心肌病理分割（MYOPS）结合三个序列的心脏磁共振（CMR）图像，该图像首次与Mycai 2020一起在Myops挑战中提出的。挑战提供了45个配对和预对准的CMR图像，允许算法将互补信息与三个CMR序列组合到病理分割。在本文中，我们提供了挑战的详细信息，从十五个参与者的作品调查，并根据五个方面解释他们的方法，即预处理，数据增强，学习策略，模型架构和后处理。此外，我们对不同因素的结果分析了结果，以检查关键障碍和探索解决方案的潜力，以及为未来的研究提供基准。我们得出结论，虽然报告了有前途的结果，但研究仍处于早期阶段，在成功应用于诊所之前需要更深入的探索。请注意，MyOPS数据和评估工具继续通过其主页（www.sdspeople.fudan.edu.cn/zhuangxiahai/0/myops20 /）注册注册。

translated by 谷歌翻译

Multimodal Representations Learning Based on Mutual Information Maximization and Minimization and Identity Embedding for Multimodal Sentiment Analysis

Jiahao Zheng , Sen Zhang , Xiaoping Wang , Zhigang Zeng

分类：机器学习 | 自然语言处理 | 计算机视觉

2022-01-10

多模式情绪分析（MSA）是一种基本复杂的研究问题，因为不同方式与人类情绪表达的模糊性之间的异质性差距。虽然已经成功地建造了MSA的多模式表示，但仍有两个挑战需要解决：1）需要构建更强大的多模式表示来弥合异质性间隙并应对复杂的多模式相互作用和2）必须在整个信息流中有效地建模上下文动态。在这项工作中，我们提出了一种基于相互信息最大化和最小化和身份嵌入（MMMIE）的多模式表示模型。我们将模态对之间的相互信息最大化以及输入数据和相应功能之间的相互信息最小化，以挖掘模态不变和任务相关信息。此外，提出了身份嵌入，以提示下游网络来感知语境信息。两个公共数据集的实验结果证明了所提出的模型的有效性。

translated by 谷歌翻译

Control of a Soft Robotic Arm Using a Piecewise Universal Joint Model

Zhanchi Wang , Gaotian Wang , Xiaoping Chen , Nikolaos M. Freris

分类：机器人

2022-01-05

“无限”软机械臂自由度的自由度使他们的控制尤其具有挑战性。在本文中，我们利用了先前开发的模型，将软臂的等效绘制到一系列通用接头，设计两个闭环控制器：用于轨迹跟踪的配置空间控制器和用于位置控制的任务空间控制器末端效应。在四段软手臂上的广泛实验和模拟证明了以下方面的大量改进：a）配置空间控制器的卓越的跟踪精度和B）减少了任务空间控制器的稳定时间和稳态误差。还验证了任务空间控制器在软臂和环境之间存在相互作用的情况下有效。

translated by 谷歌翻译

Learning Green's Functions of Linear Reaction-Diffusion Equations with Application to Fast Numerical Solver

Yuankai Teng , Xiaoping Zhang , Zhu Wang , Lili Ju

分类：机器学习 | (统计)机器学习

2021-05-23

部分微分方程通常用于模拟各种物理现象，例如热扩散，波传播，流体动力学，弹性，电动力学和图像处理，并且已经开发了许多分析方法或传统的数值方法并广泛用于其溶液。受深度学习对科学和工程研究的迅速影响的启发，在本文中，我们提出了一个新型的神经网络GF-NET，以无监督的方式学习绿色的线性反应扩散方程的功能。所提出的方法克服了通过使用物理信息的方法和绿色功能的对称性来查找任意域上方程函数的挑战。结果，它尤其导致了在不同边界条件和来源下解决目标方程的有效方法。我们还通过正方形，环形和L形域中的实验证明了所提出的方法的有效性。

translated by 谷歌翻译

STD: Stable Triangle Descriptor for 3D place recognition

Chongjian Yuan , Jiarong Lin , Zuhao Zou , Xiaoping Hong , Fu Zhang

分类：计算机视觉 | 机器人

2022-09-26

在这项工作中，我们介绍了一个新颖的全球描述符，称为3D位置识别的稳定三角形描述符（STD）。对于一个三角形，其形状由侧面或包含角度的长度唯一决定。此外，三角形的形状对于刚性转换完全不变。基于此属性，我们首先设计了一种算法，以从3D点云中有效提取本地密钥点，并将这些关键点编码为三角形描述符。然后，通过匹配点云之间描述符的侧面长度（以及其他一些信息）来实现位置识别。从描述符匹配对获得的点对应关系可以在几何验证中进一步使用，从而大大提高了位置识别的准确性。在我们的实验中，我们将我们提出的系统与公共数据集（即Kitti，NCLT和Complex-ublan）和我们自我收集的数据集（即M2DP，扫描上下文）进行了广泛的比较（即M2DP，扫描上下文）（即带有非重复扫描固态激光雷达）。所有定量结果表明，性病具有更强的适应性，并且在其对应物方面的精度有了很大的提高。为了分享我们的发现并为社区做出贡献，我们在GitHub上开放代码：https：//github.com/hku-mars/std。

translated by 谷歌翻译

Quality Matters: Embracing Quality Clues for Robust 3D Multi-Object Tracking

Jinrong Yang , En Yu , Zeming Li , Xiaoping Li , Wenbing Tao

分类：计算机视觉

2022-08-23

由于3D对象检测和2D MOT的快速发展，3D多对象跟踪（MOT）已取得了巨大的成就。最近的高级工作通常采用一系列对象属性，例如位置，大小，速度和外观，以提供3D MOT的关联线索。但是，由于某些视觉噪音，例如遮挡和模糊，这些提示可能无法可靠，从而导致跟踪性能瓶颈。为了揭示困境，我们进行了广泛的经验分析，以揭示每个线索的关键瓶颈及其彼此之间的相关性。分析结果激发了我们有效地吸收所有线索之间的优点，并适应性地产生最佳的应对方式。具体而言，我们提出位置和速度质量学习，该学习有效地指导网络估计预测对象属性的质量。基于这些质量估计，我们提出了一种质量意识的对象关联（QOA）策略，以利用质量得分作为实现强大关联的重要参考因素。尽管具有简单性，但广泛的实验表明，提出的策略可显着提高2.2％的AMOTA跟踪性能，而我们的方法的表现优于所有现有的最先进的Nuscenes上的最新作品。此外，Qtrack在Nuscenes验证和测试集上实现了48.0％和51.1％的AMOTA跟踪性能，这大大降低了纯摄像头和基于LIDAR的跟踪器之间的性能差距。

translated by 谷歌翻译

DBQ-SSD: Dynamic Ball Query for Efficient 3D Object Detection

Jinrong Yang , Lin Song , Songtao Liu , Zeming Li , Xiaoping Li , Hongbin Sun , Jian Sun , Nanning Zheng

分类：计算机视觉

2022-07-22

许多基于点的3D检测器采用点功能采样策略来提出一些分数以提高推断。这些策略通常基于固定和手工制作的规则，因此难以处理复杂的场景。与它们不同的是，我们提出了一个动态球查询（DBQ）网络，以根据输入特征自适应地选择输入点的子集，并为每个选定的点分配特征转换，并具有合适的接受场。它可以嵌入到一些最新的3D检测器中，并以端到端的方式进行训练，从而大大降低计算成本。广泛的实验表明，我们的方法可以在Kitti和Waymo数据集中将延迟降低30％-60％。具体而言，我们的检测器的推理速度分别可以在Kitti和Waymo数据集上具有可忽略的性能降解，可以达到162 fps和30 fps。

translated by 谷歌翻译